【OpenAI】DALL-Eを使ってテスト用の画像データを生成してみた

2023.03.16

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

新規事業統括部Passregiチームの山本です。

最近、特に3月1日ChatGPTのAPIが公開されてから、AIを使ったチャットボットに関する話題が増えています。今回はOpenAIが公開しているサービスの1つであり、言葉から画像を生成することのできるDALL·E（DALL-E 2）を使ってみたいと思います。

DALL-Eについて

DALL-Eは、OpenAIが提供している、会話で使うような自然言語の説明から画像を生成できるAIシステムです。詳しくはホームページをご覧ください。

https://openai.com/product/dall-e-2

テスト用データセットを作成してみる

今回は、試してみる一環として、現在私達が取り組んでいる骨格検出モデルをテストするようのデータ画像を生成してみたいと思います。私達が取り組んでいる骨格検出モデルでは、天井から撮影した画像に写っている人物の骨格を検出するように学習させているので、このような視点の画像を生成してみようと思います。特に、現状のデータセットには、スーツを着ている人物の画像がないので、このような服装の画像を生成できると嬉しいところです。

まずクエリを変えながら画像を生成してみる

まずいくつかクエリしてみました。各クエリに対して４つの画像を生成してくれます。

「人物が映っている画像」：少しクエリの具体性が低いようで、色々な画像が生成されました。

「top view of human image in convenience store」：それっぽくなりました。商品棚に身体が突っ込んでいる人がいたりしますが、コンビニっぽい感じの背景です。

「top view of human image in convenience store, reaching hand to items」：さらにほしい画像に近づきました。手が少しおかしい感じもしますが、だいぶ写真に近いスタイルで良い感じです。

「top view of human image in convenience store, reaching hand to items, human is wearing a suit」：こちらも意図通り、スーツを着ている人物の画像が生成されました。

「top view of human image in convenience store, reaching hand to items, human is wearing a suit, multi humans, whole body」：アニメーション調の画像も生成されました。

他にもいくつかクエリを試しましたが、おおよそ同じような感じでした。

画像を編集する

DALL-Eには画像を生成するだけでなく、画像を編集する「Edit」と、似たような画像を生成する「Variation」という機能があります。UIとしては、生成された画像の中から１つを選択し、右上に表示される、ボタンでそれらの機能を利用できます。

今回は、この画像が良さそう（棚がよく見えていて多様な種類の商品が並んでいる、写真に近いスタイル、スーツを着ている）と思ったので、これをベースの画像として使ってみました。

まず、Editを使ってみます。「Edit」ボタンを押すと、以下のように表示が変わります。

今回は右から２番目のボタンで、DALL-Eので「outpainting」と呼ばれている機能を利用してみました。

https://openai.com/blog/dall-e-introducing-outpainting

画像を生成する範囲を指定するための四角が表示されるので、上図のように少し画像に範囲が重なるようにして配置しました（重ならないで配置すると、全く関係無い画像がそこに生成されてしましまいました）。クエリに先程同じ「top view of human image in convenience store, reaching hand to items, human is wearing a suit」と入力して、「Generate」しました。

拡張された画像が表示されるのですが、これも４つ生成されており、画像下の左右の矢印で変えながら確認できます。気に入らなければ、「Cancel」を押し再度「Generate」することができます。